知识图谱够火,但底层技术环节还差点火候 | AI 技术生态论
不要直接使用自动化机器学习的方式,纯粹“用算力代替智力”的方式,效果不好且浪费计算资源。—— 张杰,明略科技科学院知识工程实验室主任
「AI 技术生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分。通过对 AI 生态顶级大咖、创业者、行业 KOL 的访谈,反映其对于行业的思考、未来趋势的判断、技术的实践,以及成长的经历。2020 年,CSDN 将对 1000+人物进行访谈,形成系列,从而勾勒出 AI 生态最具影响力人物图谱及 AI 产业全景图!
本文为 「AI 技术生态论」系列访谈的第十三期,通过知识图谱领域独角兽明略科技,洞悉知识图谱技术和产业生态。
百万人学 AI 你也有份!参与文章评论,评论区留言入选,即可获得价值 299 元的「2020 AI 开发者万人大会」在线直播门票一张。
近年来,知识图谱概念大火。从本质上来说,这就是一种大型的语义网络,用来描述客观世界的概念实体事件及其之间的关系。以实体概念为节点,以关系为边,提供一种从关系的视角来看世界的方式。
现有大型知识图谱,诸如 Wikidata、Yago、DBpedia,就是把海量的世界知识,以结构化形式存储下来。
以下图为例做更直观的解释,这张图表以可视化的方式,直观明了地呈现人们错综复杂的社交关系,是不是比一堆语句或段落容易理解的多?
自 2012 年谷歌将 Google Graph 引入搜索引擎,知识图谱才引起了学界和业界的巨大关注,并逐渐把这些结构化的知识成果广泛应用于搜索引擎、问答系统、金融等领域,国外内一大批做知识图谱相关研究和应用开发的企业也如雨后春笋般冒尖,国外有 Palantir、kensho、GRAKN.AI 等,国内有 BAT,以及达观数据、海致星图、PlantData、智言科技等创业企业,以及我们今天的主角——明略科技。
当然,有的知识图谱企业做得风生水起,也有的企业因为缺乏核心技术等各种原因生存艰难,而明略数据在众多同类企业中如鱼得水,2019 年 3 月获得 20 亿元 D 轮融资之后,明略数据升级为明略科技集团。
这家企业在知识图谱行业中保持鲜活的奥秘是什么?今天,我们就通过明略科技集团科学院知识工程实验室主任张杰,详细了解一下明略知识图谱构建的核心技术,以及当前知识图谱技术与产业的现状与未来发展趋势。
“三队鼎立”,造就核心知识图谱
博士毕业后,张杰加入了华为中央研究院,做了 6 年研究工作,随着华为在通信行业的纵深发展逐渐走入“无人区”,参与了 ICT 行业中的推荐与私人助理场景。
2014 年,他认识到金融行业将会是大数据和人工智能技术应用的下一个热点,风控和获客这两个最重要的环节均会带来显著的增量价值,因此选择加入了一个金融科技初创团队。他回忆,那段时间既要拜访客户了解市场需求,又要做技术攻关,锻炼了他在带领团队在研发投入和商业价值之间寻求最佳平衡点的能力。
2019 年,张杰深信未来人工智能技术会深刻改造多个传统行业,而明略在 To B 赛道上既有技术和人才积累,又在多个行业有实践经验积累,所以他选择加入明略。来到这里后,张杰专注于知识工程技术领域,在知识图谱自动化构建、知识图谱辅助决策这两个环节做行业前瞻性研究。
据张杰介绍,明略知识图谱的技术力量由三部分组成:科学院、技术中台和产品中台。技术能力全集团范围内共享打通,科学院的关键技术成果会输出到技术中台,技术中台形成公司级的可复用组件交付给产品中台,产品中台凝练出知识图谱的基线版本,并针对各个行业做适配优化,对交付质量和客户满意度负责。研发团队核心技术骨干来自于清华、北大、卡内基梅隆大学等国内外知名院校,许多成员拥有在 IBM、NEC、Oracle、Schlumberger 等 500 强企业的实战经验。
这样,明略知识图谱技术背后的三支队伍呈“鼎立”之势,共同支撑起明略知识图谱技术和产品构建的任务。
知识图谱技术和应用现状
明略成立于 2014 年,2017 年便完成 10 亿元融资,跻身大数据领域独角兽,在知识图谱领域更是涉猎已久,对于技术和行业的发展有着深刻的了解。
从张杰的专业角度来看,知识图谱近几年非常火,但说白了,学术界主要集中在两个方向:一是基于深度学习的知识表示,二是知识图谱+(如:知识图谱+检索,知识图谱+推荐,知识图谱+预训练语言模型)。
工业界主要集中在图谱自动构建,例如:如何自动化地从结构化数据库映射为知识图谱并做知识融合,如何从非结构化文本中做篇章级的事件抽取和多事件关联,如何通过小样本学习和领域知识迁移的技术减少人工标注成本,以及基于深度学习的知识表示在各个环节的应用等等。
这就是知识图谱技术和应用的基本情况。
明略做了什么?
在这样的环境下,做知识图谱的企业数不胜数,但实际上很多企业都在做着同质化的产品和功能,那明略做了什么特别的事?拥有哪些核心技术才能在多如牛毛的大数据公司中保持活力呢?
核心产品
据悉,明略在 2018 年推出了人、机器、组织三位一体的“HAO 智能”技术架构,其中:H 代表 Human Intelligence(人类智能)、A 代表 Artificial Intelligence(人工智能)、O 代表 Organization Intelligence(组织智能)。HAO 智能的目标是将人和机器通过该理论体系打造成统一的组织,人类智能与机器智能协同互补,最终实现组织智能。
目前,明略科技集团开发了多款知识图谱产品,覆盖从原始数据获取到应用展现的所有环节。其中:
CONA(Connect All the data),即“关联所有数据”,是结构化数据通用治理平台,能够大规模自动化的采集、清洗、归类、关联所有结构化数据,形成统一数据视图。另外,通过设置数据转换规则,结合数据多值溯源和融合策略,可以自动完成标准化对标,实现数据治理自动化,大大提高行业知识图谱构建效率。以公共安全领域实际数据治理为例,业务系统中近千张表,传统方法和工具做图谱构建可能需要半年以上的时间,而 CONA 能够缩短到 2 周。
NEST 是明略自研的一款知识图谱数据库,运用混合型数据存储技术,可支持数亿实体和数十亿条边的秒级响应。
SCOPA 是可视化数据分析平台,构建在 NEST 之上,根据业务场景和数据图谱特点,提供关系网络分析、时空轨迹碰撞、实时多维检索、信息比对碰撞、智能协作系统、实时数据接入等强大功能,使知识图谱行业解决方案快速落地变成了可能。目前已应用到公共安全、金融、税务、工业等多个行业几百个项目中。
与其他企业相比,明略在知识图谱构建的底层技术上有哪些独特之处?具体的实现细节是怎样的?
张杰解释道,在自动化构建知识图谱的过程中,明略科技在如下几个环节积累了一些核心技术:
针对结构化和半结构化数据,提出了 HAO profiling 技术:对来自不同数据源的结构化/半结构化数据时,对数据进行汇聚、组织,试图理解数据,解决数据冗余、冲突等问题,对数据进行标准化、连接,形成数据的知识图谱,进行可视化展示,并以统一视图服务查询、计算等应用需要。
针对非结构化数据,设计、开发了一套算法工具包:HAO 图谱。HAO 图谱包括关系抽取、事件抽取、实体对齐、网络结构嵌入式表示、时空序列数据表示、图谱摘要、基于图谱的短文本生成等算法,专注于服务企业级知识图谱系统的开发。它既可以独立运行,也可以交付企业技术团队在其之上进行二次开发。
据张杰介绍,明略的知识图谱核心产品经过了 6 年时间的反复打磨和优化,才最终应用于广告、营销、公共安全、工业、金融、数字城市、供应链、餐饮等行业。在技术研发迭代期间,张杰将明略在技术迭代期间最宝贵的经验分享给我们。
一句话概括,他的经验就是如何处理“专用、复用、通用”。为了提高实施项目中的人效比,明略一方面在组织流程上保证项目中的经验能够“回流”到技术中台,另一方面加强机器学习技术在产品“内化”中的作用,比如前文提到的 HAO profiling 技术和 CONA 平台。虽然面对很多行业客户,但相同行业中不同企业内部的业务系统在功能、数据结构、业务逻辑上是趋同的。
明略成功的秘密之一,在于其非常重视行业经验复用和技术工具复用。在行业经验复用方面,明略成立了行业咨询团队,形成了面向行业的最佳实践和成功案例,并且投入到国家标准、行业标准、联盟标准的制定中,比如,2018 年明略科技与公安部第一研究所联合发布业内首个《公安知识图谱标准化白皮书》。技术工具复用方面,技术能力在全集团范围内共享打通,算法攻关、公共技术组件、产品迭代、项目交付,各有分工又相互协作。
技术研发固然重要,但是将已有的成果效用最大化,是一条事半功倍的捷径。
自动化机器学习建模用于知识图谱
明略的另一个创新,是将近年来大火的 AutoML 技术应用到知识图谱构建中。
张杰解释,在确定、趋同、数据量足够的场景中,为了降低人工训练模型的重复劳动,明略采用自动化机器学习的方式,面向机器学习建模人员搭建了模型训练平台 MatrixAI,可以自动给出多个维度的数据探查报告,并据此在历史数据集和模型集上找到相似任务,根据相似任务的最佳实践给出算法选择建议、超参建议,再自动评价模型性能自动调参。
这是一种在相似任务的最优解附近寻找最优解的思路。但是,面对新领域新任务时,张杰不建议直接使用自动化机器学习的方式,纯粹“用算力代替智力”的方式,效果不好且浪费计算资源。
知识图谱热点研究方向与底层技术现状
知识图谱查询
知识图谱查询推理是知识图谱的重要研究点,同时也是一个有待攻破的难点。这个问题难在哪?明略对此做了哪些尝试?
张杰答道,目前,明略科技基于知识图谱的推理主要在两个问题上:多跳关系预测和反事实预测。这两个问题的挑战点在于,专家规则方式预测准确性不够,数据驱动方式数据量不够,明略做的是 ToB 业务应用场景,对于最终结果的准确性要求较高,并且需要具备可解释性。因此,明略尝试了人机协同、人机交互的方式,首先在专家给出的初步因果关系图的基础上,通过数据驱动的方式进一步补充事件间的因果关系,形成行业因果图谱,然后再将专家经验和面向特定场景特定任务的模型都封装为算子,经过多轮人机交互之后由专家给出最终答案。
他预测,这一方向会在复杂度较高的行业中尝试应用,减少应用场景对行业专家的依赖。
常识知识库
另一方面,构建常识知识库是让知识图谱“变聪明”的一种重要途径,在构建常识知识库上,明略已经做了一些尝试。
张杰说道,常识知识库的构建还需要借助研究机构和开源的力量,而明略科技未来规划的重点,则在于构建多个垂直领域知识库,将领域事实、领域规律分别固化下来,在实施项目中使其得以不断的积累和修正。
当前,知识图谱底层技术生态是否完善?周围的工具支持是否全面呢?
在张杰看来,目前知识图谱底层技术的各个环节仍不够完善,很多环节需要一定程度的人工参与,比如:图谱 schema 的定义、数据映射规则的开发、常识或领域知识库的开发、训练数据集的标注、知识融合阶段的人工校验等。要想达到可商用的程度,自动化程度至少要到 95%,有些场景甚至要求更高。
而且,目前业界在知识图谱领域并没有一套功能全面的、面向企业级应用的工具集。针对这种情况,明略开发了上文提到的一套图谱构建的算法工具包——HAO 图谱。然而,像 HAO 图谱这种功能全面的工具集在知识图谱行业并不多见,但也正表明了这是知识图谱底层技术生态待挖掘的一个缺口,也是机会所在。
张杰认为,未来,知识图谱底层技术还有很多需要完善的地方,除了技术方式之外,张杰认为还可以考虑促进行业联盟数据标准化的方式,改造已有 IT 系统,将标注工作从为了标注而标注变成众包的方式等。
未来技术发展趋势展望
综上,我们可以得出知识图谱领域的技术和应用发展仍然是一片有待开发的“蓝海”,不成熟的地方孕育着机会和潜力。未来,知识图谱技术的发展方向有哪些呢?张杰指出了其中一部分有待完善的点:
他说道,知识图谱相关的大多数技术都仍是开放的,比如:
在信息抽取层面,可以做篇章级甚至跨篇章的事件抽取;
在知识表示层面,需要较为通用的方式对节点和边中蕴含的语义信息、网络结构信息、时序信息做知识表示;
在应用层面,亟待突破的就是数据驱动的方式做因果关系发现和因果推断。
知识图谱将世界上各种知识相互关联起来,形成类人脑的有逻辑、结构化的知识库,从而在人类实践活动中执行统一的标准,并提供个性化的服务,提高工作效率。但知识图谱距离成为一把无坚不摧的钢刀还有些差距,为了利用它达到人类的终极目标——方便,还需要开发者们继续努力!
采访嘉宾
张杰博士,明略科技集团科学院知识工程实验室主任,研究方向为机器学习、自然语言处理、知识图谱,曾就职于华为诺亚方舟实验室,后做为联合创始人创办金融科技公司并任 CTO,曾主持搭建百科知识问答、对话机器人、推荐引擎、决策引擎、大数据风控等系统,发表学术论文十余篇,发明专利八十余项。
「AI 技术生态论」系列精选阅读:
今日福利
留言获奖看陆奇啦!
同样作为“百万人学 AI”的重要组成部分,2020 AIProCon 开发者万人大会将于 7 月 3 日至 4 日通过线上直播形式,让开发者们一站式学习了解当下 AI 的前沿技术研究、核心技术与应用以及企业案例的实践经验,同时还可以在线参加精彩多样的开发者沙龙与编程项目。参与前瞻系列活动、在线直播互动,不仅可以与上万名开发者们一起交流,还有机会赢取直播专属好礼,与技术大咖连麦。
评论区留言入选,可获得价值 299 元的「2020 AI 开发者万人大会」在线直播门票一张。快来动动手指,写下你想说的话吧。
点击阅读原文,直达大会官网。